Complétez ce document en remplissant les chunks vides pour écrire le code qui vous a permis de répondre à la question. Les réponses attendant un résultat chiffré ou une explication devront être insérés entre le balises html code. Par exemple pour répondre à la question suivante :
La bioinfo c'est : <code>MERVEILLEUX</code>.
N’hésitez pas à commenter votre code, enrichier le rapport en y insérant des résultats ou des graphiques/images pour expliquer votre démarche. N’oubliez pas les bonnes pratiques pour une recherche reproductible ! Nous souhaitons à minima que l’analyse soit reproductible sur le cluster de l’IFB.
Vous allez travailler sur des données de reséquençage d’un génome bactérien : Bacillus subtilis. Les données sont issues de cet article :
## Repertoire de travail
pwd
#/shared/projects/dubii2021/agodmer
## Enregistrement de l'arborescence dans le fichier Evaluation_M4_M5/supplemental_data/Organisation_espace_de_travail.txt
tree > supplemental_data/Organisation_espace_de_travail.txt
## Commande tree
tree
#[agodmer@clust-slurm-client Evaluation_M4_M5]$ tree
#.
#|-- DATA_analysis
#| |-- CLEANING
#| |-- FASTQ
#| |-- MAPPING
#| |-- QC
#| `-- REFERENCE_GENOME
#|-- EvaluationM4M5-main-results
#| |-- Evaluation.Rmd
#| |-- Evaluation.html
#| |-- EvaluationM4M5.Rproj
#| |-- README.md
#| |-- css
#| | `-- style.css
#| |-- images
#| | |-- inrae.png
#| | `-- migale-orange.png
#| `-- resources
#| |-- biblio.bib
#| |-- biomed-central.csl
#| `-- footer.html
#|-- LICENSE
#|-- README.md
#`-- supplemental_data
# |-- Organisation_espace_de_travail.txt
# `-- README_supp_data.md
## Il n'y a pas de modification à faire pour l'instant
Récupérez les fichiers FASTQ issus du run SRR10390685 grâce à l’outil sra-tools [1]
## Répertoire de travail
pwd
#/shared/projects/dubii2021/agodmer/Evaluation_M4_M5/EvaluationM4M5-main-results
## Charger le module SRA tools avec la dernière version
module avail sra-tools
module load sra-tools/2.10.3
## Utilisation de la commande fasterq-dump pour télécharger les fichiers
## Visualisation de la version
fasterq-dump --version
#"fasterq-dump" version 2.10.3
## Ecriture de la version de fasterq-dump sur le fichier Version_tools.txt dans supplemental_data
fasterq-dump --version > ../supplemental_data/Version_tools.txt
## Changement du répertoire de travail
cd ..
## Reservation des ressources pour le cluster
salloc --cpus-per-task=6 --mem=5G
## Télécharger les fichiers FASTQ
srun fasterq-dump --split-files -p SRR10390685 --outdir DATA_analysis/FASTQ/
## Lister les fichiers et regarder leur taille
ls -sh DATA_analysis/FASTQ/
#total 5.0G
#2.5G SRR10390685_1.fastq 2.5G SRR10390685_2.fastq
## Compression des fichier FASTQ avec mode verbeux acitvé
srun gzip --verbose DATA_analysis/FASTQ/*.fastq
# Liste des fichier et taille
ls -sh DATA_analysis/FASTQ/
#total 1.3G
#617M SRR10390685_1.fastq.gz 627M SRR10390685_2.fastq.gz
## La compression a bien fonctionnée !
Combien de reads sont présents dans les fichiers R1 et R2 ?
## Répertoire de travail
pwd
#/shared/projects/dubii2021/agodmer/Evaluation_M4_M5/DATA_analysis
## Chargement du module seqkit
module avail seqkit
module load seqkit/0.14.0
## Ecriture de la version de seqkit sur le fichier Version_tools.txt dans supplemental_data
seqkit version >> ../supplemental_data/Version_tools.txt
## Comptage des read présents et écriture des statistiques dans le fichier Raw_stats_fastq.txt dans Results/supplemental_data
srun seqkit stats --threads 1 FASTQ/*.fastq.gz > ../supplemental_data/Raw_stats_fastq.txt
## Visualisation des résultats
cat ../supplemental_data/Raw_stats_fastq.txt
#file format type num_seqs sum_len min_len avg_len max_len
#FASTQ/SRR10390685_1.fastq.gz FASTQ DNA 7,066,055 1,056,334,498 35 149.5 151
#FASTQ/SRR10390685_2.fastq.gz FASTQ DNA 7,066,055 1,062,807,718 130 150.4 151
Les fichiers FASTQ contiennent 7,066,055 reads.
Téléchargez le génome de référence de la souche ASM904v1 de Bacillus subtilis disponible à cette adresse
## Repertoire de travail
pwd
#/shared/projects/dubii2021/agodmer/Evaluation_M4_M5/DATA_analysis
## Téléchargement du génome de référence
srun wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/009/045/GCF_000009045.1_ASM904v1/GCF_000009045.1_ASM904v1_genomic.fna.gz
## Visualisation du fichier
ls -sh
#total 68K
#68K GCF_000009045.1_ASM904v1_genomic.fna.gz
Quelle est la taille de ce génome ?
## Taille du génome de référence
## Enregistrement du résultats dans Stats_genome_ref.txt
zcat GCF_000009045.1_ASM904v1_genomic.fna.gz | grep -v "^>" | tr --delete "\n" | wc -c > ../../supplemental_data/Stats_genome_ref.txt
## Visualisation du fichier
cat ../../supplemental_data/Stats_genome_ref.txt
#4215606
La taille de ce génome est de 4215606 paires de bases.
Téléchargez l’annotation de la souche ASM904v1 de Bacillus subtilis disponible à cette adresse
## Répertoire de travail
pwd
#/shared/projects/dubii2021/agodmer/Evaluation_M4_M5/DATA_analysis/REFERENCE_GENOME
## Téléchargement de l'annotation du génome
srun wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/009/045/GCF_000009045.1_ASM904v1/GCF_000009045.1_ASM904v1_genomic.gff.gz
## Visualisation des fichiers
ls -sh
#total 1.3M
#1.2M GCF_000009045.1_ASM904v1_genomic.fna.gz 69K GCF_000009045.1_ASM904v1_genomic.gff.gz
Combien de gènes sont connus pour ce génome ?
## Répertoire de travail
pwd
#/shared/projects/dubii2021/agodmer/Evaluation_M4_M5/DATA_analysis/REFERENCE_GENOME
## Enregistrement du résultats dans Stats_genome_ref_nb_genes.txt
less GCF_000009045.1_ASM904v1_genomic.gff.gz | awk '($3 == "gene")' | wc -l > ../../supplemental_data/Stats_genome_ref_nb_genes.txt
## Visualisation du fichier
cat ../../supplemental_data/Stats_genome_ref_nb_genes.txt
#4448
4448 gènes sont recensés dans le fichier d’annotation.
Lancez l’outil fastqc [2] dédié à l’analyse de la qualité des bases issues d’un séquençage haut-débit
## Répertoire de travail
pwd
#/shared/projects/dubii2021/agodmer/Evaluation_M4_M5/DATA_analysis
module avail fastqc
module load fasqc/0.11.9
## Ecriture de la version de fastqc sur le fichier Version_tools.txt dans supplemental_data
fastqc --version >> ../supplemental_data/Version_tools.txt
## Réservation des resources pour le cluster
salloc --cpus-per-task=8 --mem=10G
## Lancement de la commande fastqc
srun fastqc FASTQ/SRR10390685_1.fastq.gz -o QC/ -t 8
srun fastqc FASTQ/SRR10390685_2.fastq.gz -o QC/ -t 8
## Copie des rapport htlm vers supplemental data
cp QC/*html ../supplemental_data/
La qualité des bases vous paraît-elle satisfaisante ? Pourquoi ?
car comme le montre
Lien vers le rapport MulitQC SRR10390685_1 Lien vers le rapport MulitQC SRR10390685_2 Est-ce que les reads déposés ont subi une étape de nettoyage avant d’être déposés ? Pourquoi ?
car
Quelle est la profondeur de séquençage (calculée par rapport à la taille du génome de référence) ?
La profondeur de séquençage est de : X.
Vous voulez maintenant nettoyer un peu vos lectures. Choisissez les paramètres de fastp [3] qui vous semblent adéquats et justifiez-les.
Les paramètres suivants ont été choisis :
| Parametre | Valeur | Explication |
|---|---|---|
Ces paramètres ont permis de conserver reads pairés, soit une perte de % des reads bruts.
Maintenant, vous allez aligner ces reads nettoyés sur le génome de référence à l’aide de bwa [4] et samtools [5].
Combien de reads ne sont pas mappés ?
reads ne sont pas mappés.
Calculez le nombre de reads qui chevauchent avec au moins 50% de leur longueur le gène trmNF grâce à l’outil bedtools [6]:
reads chevauchent le gène d’intérêt.
Utilisez IGV [7] sous sa version en ligne pour visualiser les alignements sur le gène. Faites une capture d’écran du gène entier.
1. toolkit NS. NCBI sra toolkit. NCBI, GitHub repository. 2019.
2. Andrews S. FastQC a quality control tool for high throughput sequence data. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
3. Zhou Y, Chen Y, Chen S, Gu J. Fastp: An ultra-fast all-in-one fastq preprocessor. Bioinformatics. 2018;34:i884–90. doi:10.1093/bioinformatics/bty560.
4. Li H. Aligning sequence reads, clone sequences and assembly contigs with bwa-mem. arXiv preprint arXiv:13033997. 2013.
5. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The sequence alignment/map format and samtools. Bioinformatics. 2009;25:2078–9.
6. Quinlan AR, Hall IM. BEDTools: A flexible suite of utilities for comparing genomic features. Bioinformatics. 2010;26:841–2.
7. Thorvaldsdóttir H, Robinson JT, Mesirov JP. Integrative genomics viewer (igv): High-performance genomics data visualization and exploration. Briefings in bioinformatics. 2013;14:178–92.
A work by Migale Bioinformatics Facility
https://migale.inrae.fr
Our two affiliations to cite us:
Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France
Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France